Cos'è regressione logistica?

Regressione Logistica

La regressione logistica è un algoritmo di classificazione utilizzato quando la variabile dipendente (la variabile che vogliamo prevedere) è binaria o dicotomica, il che significa che può assumere solo due valori, ad esempio Vero/Falso, Successo/Fallimento, 0/1. A differenza della regressione lineare, che prevede un valore continuo, la regressione logistica stima la probabilità che un'istanza appartenga a una determinata classe.

Come Funziona:

Invece di adattare una retta ai dati (come nella regressione lineare), la regressione logistica utilizza una funzione sigmoide (anche chiamata funzione logistica) per trasformare l'output della combinazione lineare delle variabili indipendenti in un valore compreso tra 0 e 1, che rappresenta la probabilità.

  • Funzione Sigmoide: La funzione sigmoide è una funzione a forma di "S" definita come:

    p = 1 / (1 + e^(-z))
    

    dove z è la combinazione lineare delle variabili indipendenti:

    z = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ
    

    Qui:

    • p è la probabilità prevista.
    • e è la base del logaritmo naturale (circa 2.71828).
    • β₀ è l'intercetta.
    • β₁, β₂, ..., βₙ sono i coefficienti delle variabili indipendenti.
    • x₁, x₂, ..., xₙ sono le variabili indipendenti (predittori).
  • Interpretazione: Il valore p risultante dalla funzione sigmoide è interpretato come la probabilità che l'istanza appartenga alla classe positiva (solitamente codificata come 1). Se p è maggiore di una certa soglia (ad esempio, 0.5), l'istanza viene classificata come appartenente alla classe positiva; altrimenti, viene classificata come appartenente alla classe negativa (solitamente codificata come 0).

Concetti Chiave:

  • Variabile Dipendente: La variabile da prevedere, che deve essere binaria.
  • Variabili Indipendenti: Le variabili utilizzate per prevedere la variabile dipendente. Possono essere continue o categoriche.
  • Coefficienti (β): Rappresentano l'impatto di ciascuna variabile indipendente sulla probabilità logaritmica (odds) di appartenere alla classe positiva. L'interpretazione di questi coefficienti può essere complessa e spesso richiede la conversione in odds ratio. Per approfondire vedi Coefficienti%20di%20Regressione.
  • Odds Ratio: L'odds ratio è un modo di interpretare i coefficienti della regressione logistica. Rappresenta il cambiamento nelle odds di successo per un incremento unitario nella variabile indipendente. Un odds ratio maggiore di 1 indica un'associazione positiva, mentre un odds ratio minore di 1 indica un'associazione negativa.
  • Massima Verosimiglianza (Maximum Likelihood Estimation - MLE): I coefficienti della regressione logistica sono stimati utilizzando il metodo della massima verosimiglianza, che cerca di trovare i valori dei coefficienti che massimizzano la probabilità di osservare i dati effettivamente osservati. Per approfondire vedi Massima%20Verosimiglianza.
  • Funzione di Costo: La funzione di costo utilizzata nella regressione logistica è la funzione di log-verosimiglianza (log-likelihood). L'obiettivo è minimizzare questa funzione di costo per trovare i migliori coefficienti.
  • Valutazione del Modello: Le prestazioni di un modello di regressione logistica possono essere valutate utilizzando varie metriche, tra cui:
    • Accuratezza: La proporzione di previsioni corrette.
    • Precisione: La proporzione di istanze positive previste correttamente tra tutte le istanze previste come positive.
    • Recall: La proporzione di istanze positive previste correttamente tra tutte le istanze effettivamente positive.
    • F1-score: La media armonica di precisione e recall.
    • AUC-ROC (Area Under the Receiver Operating Characteristic curve): Una misura della capacità del modello di distinguere tra le classi. Per approfondire vedi AUC-ROC.

Vantaggi:

  • Semplice da implementare e interpretare.
  • Efficiente dal punto di vista computazionale.
  • Fornisce una probabilità associata alle previsioni.
  • Può essere estesa per gestire variabili indipendenti multiple.

Svantaggi:

  • Presuppone una relazione lineare tra le variabili indipendenti e la log-odds della variabile dipendente.
  • Può essere sensibile alla multicollinearità tra le variabili indipendenti. Per approfondire vedi Multicollinearità.
  • Richiede una dimensione del campione sufficientemente grande per ottenere stime stabili dei coefficienti.
  • Non è adatto per problemi di classificazione non lineari complessi. In tali casi, altri algoritmi di classificazione come le macchine a vettori di supporto (SVM) o le reti neurali possono essere più appropriati.

Applicazioni:

La regressione logistica è ampiamente utilizzata in vari campi, tra cui:

  • Medicina: Prevedere la probabilità di una malattia in base a fattori di rischio.
  • Marketing: Prevedere se un cliente acquisterà un prodotto.
  • Finanza: Prevedere se un prestito sarà rimborsato.
  • Rilevamento Frodi: Individuare transazioni fraudolente.